1
生成モデル入門:分類から超越する
EvoClass-AI003第8講義
00:00

生成モデル入門:分類から超越する

私たちは、判別モデルという手法から、条件付き確率 $P(y|x)$ を学習することで分類や回帰の課題を解決していたものへと移行しています。そして、高度な領域である生成モデルに進んでいます。現在の核心的な目標は密度推定、訓練データ $X$ の元となる確率分布 $P(x)$ を完全に学習することです。この根本的な転換により、高次元データセット内の複雑な依存関係や構造を捉えられるようになり、単なる境界分離を超えて、真のデータ理解と合成が可能になります。

1. 生成モデルの目的:$P(x)$ のモデリング

生成モデルの目的は、訓練データ $X$ が起源とする確率分布 $P(x)$ を推定することです。成功した生成モデルは以下の3つの重要なタスクを実行できます:(1) 密度推定(入力 $x$ に確率スコアを割り当てる)、(2) サンプリング(新たなデータポイント $x_{new} \sim P(x)$ を生成する)、(3) 検出なし特徴学習(潜在空間内で意味のある、分離された表現を発見する)。

2. 分類:明示的と暗黙的尤度

生成モデルは、尤度関数へのアプローチによって根本的に分類されます。明示的密度モデル、例えば変分オートエンコーダー(VAE)およびフロー・モデルは、数学的な尤度関数を定義し、それを最大化しようとする(またはその下限を最大化する)。暗黙的密度モデル、特に有名なのは生成的対抗ネットワーク(GAN)は、尤度計算をまったく回避し、代わりに敵対的訓練フレームワークを使って、分布 $P(x)$ からのサンプリングを行うマッピング関数を学習します。

質問1
生成モデルにおいて、主に注目される確率分布は何ですか?
$P(x)$
$P(y|x)$
$P(x|y)$
$P(y)$
質問2
敵対的訓練に依存し、明示的な尤度関数を定義しない生成モデルはどれですか?
変分オートエンコーダー(VAE)
自己回帰モデル
生成的対抗ネットワーク(GAN)
ガウス混合モデル(GMM)
挑戦:異常検出
密度推定の活用
金融機関は、何百万もの正当な取引記録上で明示的密度生成モデル $G$ を訓練しました。新しい取引 $x_{new}$ が到着しました。

目標:$x_{new}$ が異常(詐欺)かどうかを判断すること。
ステップ1
$P(x)$ の密度推定に基づいて、$x_{new}$ を異常としてマークするためには、どのような統計的指標を評価する必要がありますか?
解答:
モデルは、確率(または尤度)$P(x_{new})$ を評価する必要があります。もし $P(x_{new})$ が事前に定義された閾値 $\tau$ を下回れば、つまり正常な取引の学習済み分布の下で新規点が統計的にあり得ない場合、異常としてマークされます。